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Objetivos 


Con el estudio de los materiales asociados a este módulo didáctico alcanzaréis 
los siguientes objetivos: 


1. Saber qué es un tesauro, conocer su estructura y los principales elemen- 
tos que lo componen y definen: construcción, mantenimiento, tipologías, 


formas de representación y usos del tesauro. 


2. Analizar el papel de los tesauros en el proceso de indización y recupera- 
ción de la información y su importancia en los sistemas documentales es- 


pecializados. 
3. Conocer el proceso de creación de un tesauro y elaborar un microtesauro. 
4. Entender la función del tesauro como una herramienta específica que hace 


posible el objetivo final de la cadena documental, esto es, la recuperación 


y difusión de la información. 
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1. El tesauro 


Etimológicamente, el término proviene del latín thesaurus, cuyo significado es 
tesoro y que poco tiene que ver con el concepto que tiene hoy para el profe- 


sional de la información. 


La norma ISO 2788-1986 define un tesauro como: 


“Un vocabulario controlado y dinámico, compuesto por términos que tienen entre ellos 
relaciones semánticas y genéricas y que se aplica a un dominio particular del conoci- 
miento”. 


Por su parte, van Slype (1991) define un tesauro como: 


“Una lista estructurada de conceptos destinados a representar de manera unívoca el con- 
tenido de los documentos y de las consultas dentro de un sistema documental determi- 
nado y a ayudar al usuario en la indización de los documentos y de las consultas”. 


Podríamos definir un tesauro como una lista de términos empleados para re- 
presentar los conceptos, temas o contenidos de los documentos y que guar- 
dan entre sí relaciones semánticas y genéricas. Se trata de un instrumento de 
normalización y control del vocabulario cuyo objetivo reside en eliminar la 
ambigúedad del lenguaje, convirtiendo el lenguaje natural de los documentos 


en un lenguaje controlado. 


Estaríamos hablando del tesauro como un vocabulario controlado de 
descriptores con un significado previamente establecido y cuyo fin úl- 
timo sería el de definir de manera unívoca el contenido de un docu- 
mento. El fin último de este lenguaje es el de ser puente de conexión 
entre los usuarios y las unidades de información, esto es, de servir tanto 


para la indización como para la recuperación documental. 


A diferencia de otros lenguajes documentales, como las clasificaciones y las 
listas de encabezamientos de materia, los tesauros suelen ser lenguajes espe- 
cializados, hacen referencia a una temática concreta y están construidos para 


servir a una institución u organización determinada. 


Frente a los lenguajes clasificatorios, cuya función es describir el tema de un 
documento, los términos contenidos en un tesauro responden al análisis del 
texto O a la materia del mismo. Un tesauro recoge todos los conceptos, y ca- 
da uno de ellos constituye un punto de acceso para la recuperación del docu- 


mento. 


CC-BY-NC-ND e PID_00143963 8 


Los tesauros 





La potencia de un tesauro radica, además, en la posibilidad de combinar to- 
dos esos conceptos, llamados descriptores, lo que le convierte en un lenguaje 
combinatorio mucho más rico que los tradicionales encabezamientos de ma- 
terias a la hora de realizar los procesos de análisis y recuperación de la infor- 


mación. 


Las principales características de un tesauro son las siguientes: 


a) Nace por la necesidad de crear nuevos sistemas de indización más flexibles 


que los tradicionales. 


b) Presenta mayor especificidad de los términos relativos a campos disciplina- 


res concretos, lo que permite un análisis más preciso de los documentos. 


Cc) A partir de la ordenación alfabética y como complemento a la ordenación 
sistemática de los descriptores (por temas y significado), el tesauro facilita la 
consulta del analista y del usuario. Son precisamente estas relaciones semán- 
ticas que se establecen entre los descriptores (relaciones de equivalencia, de 
jerarquía y de asociación) las que definen un tesauro y proporcionan la ayuda 


necesaria en los procesos de indización y recuperación de información. 


Los tesauros pueden ser de los siguientes tipos: 


+ Generales o especializados, según su campo de aplicación. 


+  Multidisciplinares o monodisciplinares, según el número de disciplinas 


o temas que incluyen. 


+  Macrotesauros o microtesauros, según la naturaleza y compatibilidad 
con otros tesauros. Los macrotesauros, aunque poseen las características 
de un tesauro en cuanto a estructura y función, y al mismo tiempo, sus 
diferentes campos semánticos o microdisciplinas, pueden funcionar como 
si fueran tesauros independientes, con total autonomía. En este sentido, se 


podría hablar de un conjunto de tesauros más pequeños o microtesauros. 


+  Monolingúes o multilingiies, según las lenguas utilizadas. 


+  Alfabéticos o sistemáticos, según la presentación utilizada para mostrar 


los términos y sus relaciones semánticas. 


Las relaciones semánticas se 
estudian en el subapartado 2.2 
de este módulo didáctico. 





Los tesauros alfabéticos o sis- 
temáticos los trataremos en el 
apartado 3 de este módulo di- 
dáctico. 
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2. Estructura del tesauro 


La estructura conceptual de los tesauros no es arbitraria en ningún sentido, 
puesto que existen tanto manuales de elaboración de tesauros como normas 
internacionales que recomiendan los elementos estructurales a tener en cuen- 
ta. La consulta tanto de manuales como de normas con relación a la construc- 
ción de tesauros nos lleva a una estructura conceptual que implica relaciones 
semánticas y en la que se tienen en cuenta los términos como representacio- 


nes léxicas de los conceptos. 


En consecuencia, podemos basar la estructura de un tesauro en los siguientes 


elementos: unidades léxicas, relaciones semánticas y notas y aclaraciones. 


2.1. Unidades léxicas 


Las unidades léxicas son grupos de descriptores que agrupan los térmi- 
nos de indización bien por campos (temas), bien por clases de términos 


(facetas). 


En los tesauros, los descriptores representan conceptos o nociones que pue- 
den ser concretos, abstractos, entidades individuales o clases. Para expresar los 
conceptos, los tesauros contienen unidades léxicas llamadas descriptores y no 


descriptores. 


1) Descriptores: términos permitidos. Un descriptor es una palabra o conjunto 
de palabras del lenguaje natural que responden a un concepto, expresado con 
un único término y ese término responde a un único concepto. Esta univoci- 
dad se consigue seleccionando el descriptor entre sus sinónimos y establecien- 
do una red de relaciones semánticas con el resto de descriptores del tesauro. 
Dicho término será utilizado para el análisis y la recuperación del documento. 


Los descriptores pueden ser: 


a) Términos simples: se emplean cuando el concepto es claro en sí mismo, 
sin necesidad de añadir ninguna otra palabra, o cuando se usa como genérico 


de términos más concretos o específicos, como, por ejemplo, Coches. 


b) Términos compuestos: la mayoría de los términos de un tesauro adquieren 
su verdadero sentido cuando se convierten en términos compuestos, ya que 
así se logra una mayor especificidad. La estructura sintáctica de los términos 


compuestos suele ser la siguiente: 


e Sustantivo + adjetivo: Coches deportivos. 
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e Sustantivo + sintagma preposicional: Coches de época. 


e Sustantivo + sintagma aposicional: Coches Fl. 


2) No descriptores: términos prohibidos. Palabras incluidas en el tesauro, que 
pertenecen a una lista de sinónimos y términos emparentados unidos a los 
descriptores por una relación de equivalencia semántica, que son susceptibles 
de aparecer en los documentos o en las preguntas, pero que no son utilizados 
para formular la interrogación al sistema. La inclusión de estos en un tesauro 
tiene como finalidad mejorar la coherencia de la representación de los docu- 


mentos o de una pregunta al enviarnos al término de indización. 


Cuando un mismo concepto se puede expresar mediante dos o más sinónimos, 
uno de ellos tiene que seleccionarse como término preferente o descriptor. Los 


demás pasan a ser no descriptores. 


Ejemplo 


"Coche" (no descriptor) 
USE "Automóvil" (descriptor) 


Si buscamos información de ventas de coches, caeremos en lo que se deno- 
mina silencio documental, ya que habrá documentos que hablen sobre este 
tema pero que estén indizados utilizando la palabra “Automóvil”. Asimismo, 
si buscamos sólo por la palabra “Automóvil”, nos aparecerán exclusivamente 


documentos que contengan esta palabra, y no, la palabra “Coche”. 


Este problema se hubiera evitado si en el tesauro hubiera figurado la relación 
arriba expresada y, en consecuencia, tanto a la hora de indicar un documen- 
to sobre ventas de coches como a la hora de buscar información sobre este 
tema, no hubiéramos tenido otra opción que utilizar el término pertinente o 


descriptor, esto es, el término “Automóvil”. 
, 


En consecuencia, podemos decir que los no descriptores forman parte 
del tesauro estableciendo una relación de equivalencia con el descriptor 
pertinente, pero no cuentan ni para la indización ni para la recupera- 
ción documental. Gracias a los no descriptores, descartamos todo aque- 
llo que podemos denominar accidentes del lenguaje natural, con el fin 


de no retener más que un término referencial. 


2.2. Relaciones semánticas 


Los campos semánticos agrupan aquellos descriptores adscritos al mismo ám- 
bito de conocimiento del tesauro y esta agrupación se realiza por medio de 


una relación de pertenencia a dichos campos o microdisciplinas. Estas no se 
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pueden utilizar como descriptores, esto es, no intervienen en la indización y 
recuperación de los documentos, y sólo sirven para agrupar a los descriptores 


afines a su temática. 


En cuanto a las relaciones semánticas propiamente dichas, son todas 
aquellas relaciones que se establecen entre los términos de un tesauro y 
tienen como objetivo principal especificar el significado de un descrip- 


tor asignándolo a un campo semántico o microdisciplina determinada. 


Las relaciones semánticas establecidas en los tesauros son de cuatro tipos: de 
pertenencia, de equivalencia, de jerarquía y de asociación. A continuación 
veremos una descripción de cada una de ellas y recomendamos recurrir a los 
manuales y a las normas citadas en la bibliografía para una definición más 
detallada: 


1) Relaciones de pertenencia: se establecen entre un descriptor y el campo 


semántico al que pertenece. 


Notación 


No existen siglas o abreviaturas normalizadas para expresar la relación 


de pertenencia. 


2) Relaciones de equivalencia: la equivalencia semántica entre descriptores 
se aplica a los sinónimos, términos que poseen significados iguales en diferen- 
tes contextos, y a los cuasi-sinónimos, términos considerados de significado 
diferente en el uso común pero tratados como si fueran sinónimos en materia 


de indización. 


Notación 


Las relaciones de equivalencia se suelen representar mediante el tér- 
mino USE (relación entre el término no preferente y el término prefe- 
rente, O término a usar más aceptado) y las siglas UP (Usado por), que 
en inglés son USE y UE. 


Notación usada en las relaciones de equivalencia 


Catalán Castellano Inglés 





Use EM USE USE 





Usado por EP UP UF 
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Descriptor No descriptor 
Automóvil coche 
UP coche USE Automóvil 





Se consigue así evitar la ambigúedad terminológica de la sinonimia del lengua- 


je natural expresada en varios términos para referirse a un mismo concepto. 


3) Relaciones de jerarquía: son las relaciones que se establecen entre los des- 
criptores. En una relación de jerarquía, un término es superior o genérico de 
otro y este otro término es inferior o específico del anterior. Esta estructura 
clasificatoria distingue al tesauro de las listas alfabéticas de materias o palabras 
clave, así como de diccionarios y léxicos. De esta forma se crean campos con- 
ceptuales que clasifican los términos y los agrupan en un campo delimitado 


de significados O facetas que se van agrupando en disciplinas y sub-disciplinas. 
Notación 
Para la presentación de las relaciones jerárquicas se suelen utilizar de- 
terminadas siglas como TG (término genérico) y TE (término específico); o 


por su siglas en inglés, BT (broad term o término más amplio), NT (narrow 


term o término más específico). 


Notación usada en las relaciones de jerarquía 























Castellano Inglés Catalán 
Término genérico TG BT TA (término 
amplio) 
Término específico TE NT TE 
Descriptor Descriptor 
Productos lácteos Yogur 
TE yogur TG Productos lácteos 





Las relaciones de jerarquía constituyen el rasgo más característico de los tesau- 
ros y proporcionan una ayuda importantísima al usuario en los procesos de 


indización y recuperación documental. 


4) Relaciones de asociación: son las relaciones asimétricas establecidas entre 
descriptores de distintas familias, distintas a las jerárquicas o de equivalencia, 
y que designan conceptos capaces de evocar mutuamente, por asociación de 


ideas, relaciones entre ellos. 


Los tesauros 
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Notación 


Este tipo de relación se suele representar mediante las siglas TR (Término 
Relacionado) o en inglés RT (Related Term). 


Notación usada en las relaciones de asociación 

















Castellano | Inglés Catalán 
Término relacio- TR RT TR 
nado 
Descriptor Descriptor 
Cargos municipales Administración Central 


TR Administración Central | TR Cargos municipales 








La mayoría de las relaciones asociativas se establecen entre términos que com- 
parten alguna característica común pero que pertenecen a campos semánticos 


diferentes. 


Ayudan al usuario en las tareas de indización y recuperación documental pues- 
to que proporcionan nuevos descriptores relacionados que facilitan la formu- 


lación de dichas tareas. 


2.3. Notas y aclaraciones 


Cuando el significado de un descriptor es difuso o no está bien precisado por 
su contexto semántico o léxico, se puede añadir una explicación adicional 
relacionada con el descriptor, de forma que no se produzca ambigúedad dentro 
del tesauro. 


Estas explicaciones pueden ser notas (explicativas, históricas o de aplicación) 


o modificadores: 


1) Notas. Utilizan como notación NA: 


Ejemplo 


INSTALACIONES DEPORTIVAS 

NAÚsese este término para referirse a instalaciones de los distintos 
deportes desde el punto de vista de sus características y descripción. 
Para referirse a aspectos económicos y de gestión úsese el EQUIPA- 
MIENTOS DEPORTIVOS 


2) Modificadores. Añaden la explicación entre paréntesis para evitar la am- 
bigúedad. 
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Ejemplo 


Juegos Olímpicos (Invierno). 
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3. Formas de presentación del tesauro 


Existen diferentes formas de presentar los términos que componen un tesauro 
y las relaciones que se establecen entre esos términos dentro del tesauro. Los 
principales tipos de presentaciones son los siguientes: alfabética, sistemática, 
gráfica y con índices permutados. 


3.1. Presentación alfabética 


En la presentación alfabética todos los términos del tesauro, descriptores y 
no descriptores, se encuentran agrupados en una sola secuencia alfabética, 
acompañados de sus relaciones. Se utiliza principalmente en el momento de 
la indización de los documentos ya que un simple vistazo al listado alfabético 
nos permite identificar los descriptores pertinentes. 


En la presentación alfabética, las informaciones asociadas a cada descriptor 
(informaciones que especifican las relaciones semánticas del tesauro) van pre- 


cedidas de sus respectivas abreviaturas o notaciones de la siguiente manera: 


Información asociada y descriptores usados en la presentación alfabética 





Descriptor Información asociada 
DOM Campo semántico o microdisciplina a la que pertenece el descriptor (relación de pertenencia) 
NA Nota de aclaración para evitar la ambiguedad del término 
UP Usado por. El término preferente o descriptor hace una referencia al no descriptor o término no preferente (relación de 


equivalencia) 











USE El término no preferente o no descriptor hace referencia al descriptor (relación de equivalencia) 

TC Término cabecera. No es de uso obligatorio (relación de jerarquía) 

TG Término genérico que hace referencia al término al cual pertenece el descriptor en cuestión (relación de jerarquía) 

TE Término específico que hace referencia al término que se incluye dentro del término en cuestión (relación de jerarquía) 
TR Término relacionado que hace referencia al término que tiene relación con el descriptor que nos ocupa, pero que no 


pertenece al mismo grupo del descriptor analizado (relación de asociación) 
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Bebidas espirituosas 

DOM Industrias 

NA Se consideran bebidas espirituosas aquellas bebidas, exceptuando 
los vinos tradicionales y la cerveza, con contenido alcohólico 
procedentes de la destilación de materias primas agrícolas. 

UP Licores y aguardientes 

TC Industria alimentaria 

TG Industria vinícola 

TE Brandy 
Ginebra 
Ron 
Vodka 
Whisky 

TR Alcoholismo 


En cuanto a las otras lenguas, a continuación se presenta una tabla con las 


equivalencias de las notaciones: 

















Descriptor Castellano Inglés Catalán 
DOM No es obligatorio No es obligatorio No es obligatorio 
NA NA sc NA/NE 
UP/USE UP/USE UF/USE EP/EM 
TC TC TT TC 
TG TG BT TA 
TE TE NT TE 
TR TR RT TR 











3.2. Presentación sistemática 


La presentación sistemática, también llamada jerárquica, muestra los descrip- 
tores agrupados por campos semánticos o microdisciplinas y, dentro de estos, 
por cadenas jerárquicas, en función de las relaciones jerárquicas de los térmi- 
nos (término genérico y/o específico). En la presentación sistemática los títu- 
los de los campos semánticos encabezan la jerarquía y a continuación apare- 


cen por orden jerárquico el conjunto de términos genéricos y específicos. 


La ordenación de los descriptores que pertenecen al mismo campo semántico 
se realiza por sangrados (una sangría a la derecha por cada nivel jerárquico) 
y por una ordenación alfabética de los descriptores que pertenecen al mismo 
nivel jerárquico y que, por tanto, pertenecen al mismo descriptor genérico. 


Los tesauros 
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Ejemplo 
Ponemos en negrita los términos empleados al tratar la representación alfabética: 


Industrias 
Industria alimentaria 
Industria cárnica 
Industria conservera 
Alimentos congelados 
Industria del aceite 
Aceite de girasol 
Aceite de oliva 
Industria vinícola 
Bebidas alcohólicas 
Bebidas espirituosas 
Brandy 
Ginebra 
Ron 
Vodka 
Whisky 
Licores y aguardientes 
Cava 
Vino 


3.3. Presentación gráfica 


La representación gráfica permite visualizar las relaciones entre los términos 
y su estructura jerárquica de forma muy efectiva. Las relaciones se disponen 
como una figura que permite al usuario asociar los términos que se encuentran 


relacionados. 


Sin embargo, necesitan ir acompañadas de un índice alfabético, ya que es muy 
difícil representar aquellas relaciones que no aparecen en el gráfico, como pue- 
den ser los no descriptores o las notas aclaratorias. Se da así la circunstancia 
de que la sección auxiliar del índice contiene más información que la parte 
en teoría principal, lo que convierte a esta parte gráfica en una presentación 


de apoyo. 


Existen dos tipos de representación gráfica: la estructura arborescente y el dia- 
grama de flechas. 


1) Estructura arborescente 


Esta representación se caracteriza por la forma de árbol, y en ella el término 
principal se sitúa en una posición destacada del gráfico. A continuación los 
términos específicos se sitúan en función de los diferentes grados de jerarquía 


que poseen. 


Este tipo de presentación sólo permite visualizar las relaciones jerárquicas sien- 
do necesario el índice alfabético para entender el resto de relaciones que se 


dan entre los términos (de equivalencia, asociación y notas de aplicación). 
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Ejemplo 


Figura 1. Ejemplo de estructura arborescente 
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Fuente: Norma UNE 50-UNE-50-106-90 (pág. 44). 


2) Diagrama de flechas 


En esta presentación cada campo semántico aparece por separado y tiene una 


forma de presentación rectangular: 


+ En el centro del rectángulo se encuentra el campo semántico o término 
principal y a su alrededor gravitan los descriptores que pertenecen a dicho 
campo semántico, así como las relaciones jerárquicas y asociativas que se 
establecen entre ellos. Las relaciones jerárquicas se indican por medio de 
flechas que van de los términos más genéricos hacia los más específicos 
y las relaciones asociativas se fijan a través de líneas rectas que conectan 


con los descriptores relacionados. 


e Fuera del rectángulo se encuentran los descriptores que pertenecen a otros 
campos semánticos pero que están relacionados con los descriptores situa- 
dos en el interior del rectángulo. Al igual que en el caso anterior, se utili- 
zan flechas o líneas rectas para enlazar con los descriptores de dentro del 
rectángulo. 


Como ocurre con la representación arborescente, la representación mediante 
diagrama de flechas necesita el índice alfabético para entender el resto de re- 
laciones (de equivalencia, asociación y notas de aplicación) que se dan entre 


los términos. 
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Figura 2. Ejemplo de diagrama de flechas 
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Fuente: Norma UNE 50-UNE-50-106-90 (pág. 46). 


3.4. Presentación con índices permutados 


Un índice es una serie ordenada de puntos de acceso que nos remiten de un 
término conocido por el usuario a los conceptos contenidos en los documen- 
tos. Su objetivo se centra, por tanto, en la recuperación documental. La au- 
tomatización de los sistemas documentales ha posibilitado la realización de 


índices más complejos, con permutaciones de los términos. 


Los índices permutados muestran la relación alfabética de todos los términos 
significativos de un tesauro mediante la agrupación de los descriptores afines 
desde el punto de vista semántico, facilitando de esta forma la recuperación 
de los descriptores compuestos independientemente de su situación dentro 
del descriptor. En definitiva, se recurre a una agrupación de descriptores afines 
desde el punto de vista semántico que en otro tipo de representación apare- 


cerían más distanciados. 


La aplicación de estos tipos de índices a los descriptores de un tesauro ha ge- 
nerado nuevos tipos de presentaciones de sus términos. Entre estos tipos de 
índices producidos por el ordenador, destacan los índices KWIC, los KWOC 
y los KWAC. 


1) Índices KWIC 


Los índices KWIC (key words in context) muestran una relación de descriptores 
en la cual las palabras significativas se ordenan alfabéticamente en una colum- 


na central. El resto del texto se cita antes y después de dichas palabras. 


El KWIC crea el índice de tal manera que una columna central ordenada de 
forma alfabética muestra la palabra clave con una tipografía destacada (esta 
representación se hace para todas la palabras claves del documento, es decir, 
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se produce una permutación de términos para dejar siempre en la columna 
central el término significativo). Un mismo documento aparecerá representa- 
do de este modo en el sistema tantas veces como términos indizados posea en 
el índice KWIC. La notación del índice es numérica. 


Ejemplo de índice KWIC 

reajuste del funcionamiento de COMPRESORES centrífugos. Posibilidades de 
químicos - La selección de COMPRESORES para las industrias de procesos 
velocidad. Particularidades de COMPRESORES de procesos con rotor de gran 

de pirolisis - Obtención de COQUE electródico a partir de productos líquidos 


Consideraciones críticas sobre COSMÉTICOS para la piel 


2) Índices KWOC 


En los índices KWOC (key word out context), los descriptores se enumeran po- 
niendo todas las palabras importantes en orden alfabético, seguidas por el 
nombre entero del descriptor. 


Ejemplo de índice KWOC 


COMPRESORES 


Posibilidades de reajuste del funcionamiento de compresores centrífugos 





La selección de compresores para las industrias de procesos químicos 


Particularidades de compresores de procesos con rotor de gran velocidad 


COQUE 


Obtención de coque electródico a partir de productos líquidos de pirolisis 


COSMÉTICOS 


Consideraciones críticas sobre cosméticos para la piel 


3) Índices KWAC 


El índice KWAC (key word and context) es una mezcla del KWIC y el KWOC. 
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Ejemplo de índice KWAC 


COMPRESORES 


reajuste del funcionamiento de COMPRESORES centrífugos. Posibilidades de 





químicos - La selección de COMPRESORES para las industrias de procesos 





velocidad. Particularidades de COMPRESORES de procesos con rotor de gran 
COQUE 


de pirolisis - Obtención de COQUE electródico a partir de productos líquidos 


COSMÉTICOS 


Consideraciones críticas sobre COSMÉTICOS para la piel 
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4. Creación y utilización de un tesauro 


Antes de iniciar la construcción de un nuevo tesauro debemos considerar las 


siguientes cuestiones: 


a) Comprobar si ya existe algún tesauro sobre la temática que nos interesa y 


si dicho tesauro puede servir para nuestro sistema documental. 

b) Si decidimos iniciar la construcción de uno nuevo, deberemos establecer 
las características que tendrá, esto es, temas que tiene que tratar, tamaño del 
tesauro, si será monolingúe o multilingúe, tipo de relaciones entre los descrip- 
tores y otra serie de cuestiones formales relativas a la tipografía de los térmi- 
nos, longitud de los mismos, cuestiones relativas a su género, forma, etc. 


4.1. Creación de un tesauro 


La construcción del tesauro comprende ocho o nueve etapas, dependiendo de 
si es monolingúe o multilingúe (Normas UNE-50-106 y UNE 50-125): 


+ Recolección del vocabulario en lenguaje natural dentro de los dominios 


que cubra el tesauro. 


+  Subdivisión del conjunto de los dominios que se van a cubrir en una serie 


de microdisciplinas. 
+ Transformación del vocabulario libre en un lenguaje controlado, estable- 
ciendo las relaciones de pertenencia, de equivalencia semántica, de jerar- 


quía, y redactando las notas explicativas. 


e Búsqueda de las equivalencias interlingúísticas (si se trata de un tesauro 


multilingúe). 
e Enriquecimiento del tesauro por medio de relaciones asociativas. 
+ Elaboración del borrador del tesauro. 
e Formación de los indicadores. 
e Test del tesauro. 
+ Revisión final y primera edición. 


1) Recolección de los términos 
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Esta fase consiste en buscar y registrar todas las palabras y expresiones signifi- 


cativas que intervienen en la disciplina o disciplinas cubiertas por el tesauro. 


Pueden utilizarse algunas fuentes terminológicas alternativas o complemen- 


tarias: 


+ Un lenguaje documental ya existente en el servicio de documentación: 
sistemas de clasificación, listados de palabras clave o de descriptores libres, 
listas de autoridades. 


+  Tesauros ajenos al servicio de documentación, pero dedicados a los mis- 
mos dominios o a dominios próximos, descubiertos gracias a alguno de 
los repertorios de tesauro disponibles en el mercado. Un tesauro ya exis- 
tente resulta útil porque aporta una colección organizada de conceptos de 
la que se podrá extraer lo que convenga, pero rara vez se adoptará en su 
totalidad para organizar el propio patrimonio informativo. En Internet se 


pueden localizar multitud de tesauros disponibles para su consulta. 


+ Terminología utilizada en los tratados, manuales, léxicos especializados, 
reglamentaciones técnicas publicadas o específicas del organismo. Esas 
fuentes tienen la gran ventaja de ofrecer una terminología generalmente 


admitida y estructurada por sus autores. 


+ Bases de datos terminológicas. 


+ Indización intelectual, en lenguaje natural, por medio de descriptores li- 
bres, de una muestra de varios cientos de documentos representativos para 
cada uno de los grandes dominios que va a cubrir el tesauro. Se obtiene de 
esta manera un inventario no ordenado de la terminología efectivamente 
utilizada por los autores para designar los conceptos que ellos manejan 
habitualmente, puede que en varias lenguas, si se trata de una muestra 


multilingúe para crear un tesauro multilingúe. 


+ Indización automática, en lenguaje natural, por medio de palabras clave, 
de esos mismos documentos. Este método es poco eficaz porque la lista 
obtenida sólo incluye palabras aisladas (unitérminos), que sólo en algunos 
casos, cuando están esclarecidas por su contexto, sirven para encontrar los 
conceptos. Además, aunque se utilice una gran lista de palabras vacías, el 
ordenador proporciona un porcentaje extremadamente elevado de térmi- 


nos sin ningún interés discriminante. 


+ Consulta a especialistas, vinculados con el organismo al que pertenece el 
sistema documental. Esta fuente es indispensable para obtener la termino- 
logía propia de las diversas prácticas profesionales dentro del organismo, 
así como una explicitación de la acepción específica de ciertos términos 


para estos especialistas. 
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2) Creación de los campos semánticos o microdisciplinas 


Con todo el conjunto de términos recogidos durante la fase anterior pode- 
mos establecer un listado provisional de microsdisciplinas que completarán el 


cuerpo del tesauro. 


La lista de las microdisciplinas tiene como única finalidad preparar un sis- 
tema de agrupación de los descriptores que sea aceptable para el usuario y có- 
modo de consultar. De esta forma la lista así dispuesta será utilizada directa- 
mente durante la siguiente etapa y se revisará continuamente a lo largo de 


todo el proceso de construcción del tesauro. 


3) Reducción a un lenguaje documental 


En esta fase se establecen las relaciones entre los descriptores definidos y se 


introducen las notas aclaratorias precisas: 


a) Relaciones de pertenencia: lo primero que debemos conseguir es la dis- 
tribución de todos los términos del lenguaje natural recopilados durante la 
primera fase en las diferentes microdisciplinas que hemos establecido en la 
segunda. De esta manera, todos los términos quedan adscritos de forma pro- 


visional a un campo semántico o una microdisciplina. 


b) Relaciones de equivalencia: una vez que tenemos todos los descriptores 
distribuidos entre las diferentes microdisciplinas, debemos examinarlas una 
por una con el fin de establecer entre sus conceptos el listado de términos 
sinónimos o cuasi-sinónimos. De esta manera, empezamos a seleccionar los 
términos que pasarán a ser descriptores y los que serán no descriptores, y que 


tendremos que enlazar por medio de una relación de equivalencia semántica. 


Los criterios para elegir el término descriptor entre sus sinónimos se deben 
fundamentar en la selección del menos ambiguo o del más utilizado en la pro- 
fesión o por los usuarios del sistema documental. Probablemente, deberemos 
consultar obras terminológicas para asegurar la corrección de la ortografía de 


estas palabras. 


c) Notas explicativas: si el término seleccionado como descriptor todavía pue- 
de provocar alguna ambigiedad dentro del tesauro, tendremos que redactar 


la nota explicativa correspondiente (de definición, histórica o de aplicación). 


d) Relaciones jerárquicas: el paso siguiente consiste en establecer las cadenas 
jerárquicas entre descriptores genéricos y específicos dentro de cada campo 


semántico o microdisciplina. 
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Partimos del descriptor más genérico (término cabecera), y desarrollamos en 
forma arborescente las diferentes ramificaciones hasta llegar a los descriptores 
más específicos. La ordenación de los términos dentro de un mismo nivel je- 


rárquico puede hacerse por facetas o temas. 


4) Búsqueda de equivalencias interlingiísticas 


En el caso de los tesauros multilingúes, una vez que se ha fijado el contenido 
semántico de los descriptores (gracias a las relaciones de pertenencia, equiva- 
lencia y jerarquía y a las notas explicativas), podemos empezar a establecer las 
equivalencias lingúísticas del término en los diferentes idiomas definidos en 


los tesauros. 


5) Establecimiento de relaciones de asociación 


El paso siguiente en el proceso de construcción del tesauro es el establecimien- 
to de las relaciones de asociación entre los descriptores de sus diferentes cam- 
pos semánticos. Es sin duda la fase más laboriosa, ya que se debe examinar ca- 
da uno de los descriptores del tesauro con el fin de encontrar términos afines 


temáticamente entre el resto de los descriptores. 


También se deberán revisar los descriptores localizados en otros campos se- 
mánticos con los que el descriptor que se está examinando pueda tener una 
relación de asociación. Si esto se produce, las relaciones de asociación podrán 
ser creadas así mismo entre descriptores que pertenezcan a cadenas jerárquicas 


diferentes dentro de la misma disciplina. 


En ningún caso se crearán relaciones asociativas: 


+ Descriptores de la misma cadena jerárquica. 


e Descriptores y no descriptores. 

6) Elaboración del borrador del tesauro 

La elaboración de todo el proceso anterior dará lugar a una edición piloto o 
experimental del tesauro. Se debe procurar hacer, por lo menos, una presen- 


tación alfabética y otra jerárquica. 


Esta edición, o edición O, está destinada a la formación de los indizadores o 


analistas y a la prueba de funcionamiento del tesauro. 


El ejercicio dura varios días y consiste en: 


e Presentar el borrador del tesauro. 


e Hacer que los indizadores o analistas indicen los mismos documentos. 
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Tras la indización de cada documento: 


e Se dialoga sobre los puntos de vista adoptados por cada indizador, con el 


fin de hacer que progresivamente coincidan. 

e Se calcula la tasa de coherencia (ratio entre el número de descriptores co- 
munes y el número total de descriptores distintos utilizados por dos per- 
sonas o dos grupos para indizar el mismo documento); al principio del 
ejercicio la tasa será escasa (entre el 20 y el 30 % según van Slype), pero al 
terminar la formación tenderá hacia su valor ideal (entre el 50 y el 80 %). 

7) Test del tesauro 

El test del tesauro tiene como finalidad la identificación y resolución de los 

problemas que presenta el tesauro como herramienta para la indización de 

un sistema documental determinado. Todas las anomalías detectadas por los 
indizadores durante la indización de una muestra significativa de documentos 
se señalan en un informe en forma de propuestas para: 

+ Añadir descriptores y no-descriptores olvidados durante la construcción. 

+ Modificar las estructuras jerárquica y asociativa. 

e  Explicitar por medio de notas explicativas descriptores todavía ambiguos. 

Para organizar este test: 

a) Se seleccionan varios cientos de documentos y, si es posible, de consultas. 


b) Se hace que los documentalistas los indicen usando el nuevo tesauro. 


Cc) Se pide a los documentalistas que preparen un informe especial en el que 
aparezcan identificados los tipos de propuestas descritos más arriba. 


d) Se realiza, por último, una estadística de estas propuestas, que serán valo- 


radas por los responsables de elaborar el tesauro. 


8) Revisión final y primera edición 


Una vez que se han añadido y revisado las propuestas de los indizadores, es- 


tamos en condiciones de preparar la edición definitiva del tesauro. 


La edición de un tesauro tiene que incluir, en forma de prefacio o introduc- 


ción, las siguientes informaciones: 


+ Nombres de los autores y del servicio o centro responsable de la edición. 


+ El objetivo que se quiere alcanzar con la creación del tesauro. 
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e El listado de las microdisciplinas que contiene. 


+ Las fuentes terminológicas utilizadas. 


+ El proceso de construcción del tesauro. 


e Las características del tesauro: lenguas, número de descriptores, de no des- 
criptores, de microdisciplinas, de términos específicos, de términos rela- 


cionados, etc. 


+ Algunos ejemplos de las presentaciones del tesauro: relaciones incluidas, 


abreviaturas o signos utilizados. 


+. Instrucciones para la indización y la formulación de consultas. 


+ Información sobre el mantenimiento del tesauro: futuras perspectivas, uso 


de sistemas automatizados, etc. 


Una vez redactado el prefacio con esta información, podemos iniciar la im- 


presión o edición del tesauro. 


4.2. Utilización de un tesauro 


El tesauro es una herramienta viva y dinámica que se nutre de nuevos des- 
criptores, gracias a la indización de nuevos documentos y a los cambios cua- 
litativos que el mismo proceso de construcción genera. Por consiguiente, el 
mantenimiento y la actualización periódica del tesauro se convierten en una 


necesidad. 


Se debe actualizar periódicamente, tanto para corregir errores y omisiones co- 
mo para adaptarlo a la evolución científica de la disciplina que abarca. El pro- 
ceso de control debe seguir los siguientes pasos: 


1) Control de la frecuencia de uso de los descriptores 
Para llevar esto a cabo, se debe confeccionar periódicamente un listado de los 
descriptores con el número de ocurrencias, es decir, la cantidad de veces que 


han sido utilizados en la indización de los documentos. 


La elaboración de estos listados, normalmente facilitada por el software de ges- 
tión documental, permite detectar: 
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e Descriptores que se han utilizado muy poco, lo que indica que el descriptor 
es problemático. 


+ Descriptores que se han utilizado mucho, lo que también puede indicar 
problemas. 


2) Detección de ausencia de descriptores 


Con el uso del tesauro en el proceso de indización se pueden detectar nuevos 
términos que aparecen en los documentos, pero que no están incluidos en el 


tesauro. 


Generalmente, la mayoría de los sistemas documentales, especialmente las ba- 
ses de datos documentales, ya han previsto esta incidencia con la inclusión de 
un campo denominado descriptores candidatos en la base de datos. Todos los 


conceptos que no están en el tesauro se incluyen en este campo. 


Periódicamente, los responsables del tesauro elaboran un listado de estos des- 


criptores candidatos y estudian su posible inclusión en el tesauro. 


3) Problemas de uso del tesauro 


Con el uso del tesauro también se empiezan a detectar diferentes problemá- 


ticas: 


+ Descriptores con un significado muy próximo y que, por tanto, provocan 


la duda del indizador en el momento de seleccionarlos. 


+ Relaciones semánticas cuya ausencia se note. Por ejemplo, la de un no 


descriptor que ayudaría a localizar el descriptor admitido. 


+  Divergencias entre las diferentes presentaciones del tesauro: un término 
aparece adscrito a un campo semántico determinado en la presentación 


jerárquica, y a otro en la alfabética. 


La detección de estos problemas se debe llevar a cabo con la colaboración 
estrecha de los analistas, que son las personas que los encuentran durante el 


análisis del documento. 


4.2.1. Uso del tesauro en los procesos de indización y 


recuperación de la información 


El uso del tesauro en el proceso de indización de un documento tiene que ver 
fundamentalmente con la traducción de los conceptos extraídos del lenguaje 
natural a un lenguaje controlado, es decir, con la conversión de los términos 


del lenguaje natural en descriptores del tesauro. 


Descriptores poco 


utilizados 








Esto puede suceder, por ejem- 
plo, porque el descriptor es 
demasiado específico, no se 
entiende su significado, etc. 


Descriptores demasiado 


utilizados 





Esto puede suceder porque el 
descriptor es demasiado ge- 
nérico y en consecuencia hay 
que crear descriptores más es- 
pecíficos, etc. 
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Ahora bien, al tratarse de un lenguaje documental muy flexible, a la hora de 
indizar con un tesauro tenemos que seleccionar los conceptos relevantes del 
documento de la manera más precisa posible, ya que la estructura semántica 
del tesauro garantiza la coherencia del significado de todos los descriptores. 
Esta circunstancia influirá de forma definitiva en un eficaz proceso de recupe- 


ración de la información. 


En este último proceso, esto es, en el momento de proceder a la consulta y la 
recuperación pertinente de la información, el tesauro dirige al usuario a la hora 
de interrogar a la base datos o sistema documental concreto puesto que traduce 
el lenguaje natural del usuario y le dirige de los conceptos o descriptores no 
aceptados a los descriptores aptos para proceder a una interrogación efectiva 


del sistema. 


La finalidad de su estructura (relaciones de pertenencia y jerarquía) y de su 
red de relaciones (relaciones de equivalencia y asociación) permite ayudar al 
usuario a construir la mejor estrategia posible en función de sus necesidades 
de información, lo que facilita una alta precisión y exhaustividad en la recu- 


peración. 


4.2.2. Revisión y actualización del tesauro 


Después del seguimiento del uso del tesauro y la detección de sus principales 
problemas, es preciso iniciar su revisión y actualización. Conviene que esta 
revisión la lleven a cabo la persona o las personas administradoras del tesau- 
ro, ya que se trata de la única forma de garantizar el mantenimiento de su 


coherencia. 


La periodicidad de esta revisión depende de las características del centro y del 


tesauro; puede ser semestral, anual o bianual. 


También es importante mantener una nota histórica en los descriptores que 
han sufrido modificaciones, que incluya la fecha de la introducción del cambio 
y el descriptor que se utilizaba antes de su incorporación o modificación. Parte 
del software de gestión de tesauros incluye entre sus prestaciones la posibilidad 
de mantener esta nota histórica o fichero LOG como una información interna 


para los administradores. 


Durante este proceso de revisión se deben tomar decisiones para solucionar 


los problemas que pueda presentar el tesauro: 


a) Con relación a los descriptores que se han utilizado con mucha frecuencia, 


se pueden mantener tal cual o crear otros descriptores más específicos. 


b) Con relación a los descriptores que se han utilizado con muy poca frecuen- 


cia, se pueden mantener tal cual o suprimirlos del tesauro. 
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c) Con relación a los descriptores candidatos, se pueden tomar las siguientes 


opciones: 


e Si sólo se han requerido en muy pocas ocasiones, no sería necesario in- 
cluirlos ya que podemos utilizar el descriptor más genérico. Otra solución 


es incluirlos como no descriptores. 


+. Sila petición de los descriptores es frecuente, podemos incluirlos, estable- 
ciendo previamente las correspondientes relaciones de pertenencia, jerar- 


quía, equivalencia y asociación. 


d) Otro problema adicional se deriva de la eliminación de descriptores que 
hacen referencia a términos obsoletos que ya no se usan. El problema de es- 
ta operación consiste en que si ya tenemos documentos indizados con estos 
descriptores, es necesario que los volvamos a indizar, con el fin de mantener 


la coherencia entre el tesauro y el sistema de consulta. 
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5. Sistemas automatizados de gestión de tesauros. 
Tesauros en línea 


5.1. Sistemas automatizados de gestión de tesauros 


Los sistemas automatizados de gestión de tesauros facilitan la gestión 
y edición de un tesauro de manera automatizada, permitiendo de esta 
forma reducir el tiempo y los costes a la hora de su elaboración. 


Las prestaciones de dichos sistemas son variadas en función del software que 


se utilice, pero en líneas generales su utilización permite: 


a) Incluir términos y registrar automáticamente las relaciones invertidas con 


otros términos del tesauro. 


b) Editar diferentes presentaciones del tesauro (alfabéticas, sistemáticas, índi- 
ces permutados) y seleccionar el tipo de relación que queremos visualizar en 
el listado (con términos relacionados, notas explicativas, términos genéricos, 


etc. o sin ellos). 


c) Utilizarse directamente en la consulta. Si el software forma parte del sistema 
de gestión de la base de datos documental, puede permitir la selección de los 
términos desde el tesauro, la ejecución inmediata de la búsqueda y la recupe- 


ración de los documentos pertinentes. 


d) Contar con prestaciones para los administradores del tesauro como las si- 


guientes: 


e Posibilidad de mantener un fichero histórico donde se reflejen las modifi- 


caciones y los cambios que se hacen en los diferentes descriptores. 
e Facilidades a la hora de eliminar un descriptor del tesauro (cuando este 
desaparece, se eliminan todas las relaciones que tenía con el resto de los 


términos). 


e  Flaboración automática de estadísticas (de frecuencia de uso de los des- 


criptores, del número de relaciones existentes en el tesauro, etc.). 


Existen dos grandes tipos de sistemas de gestión de tesauros: 
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1) Los más simples están asociados a un sistema de gestión documental con- 
creto. Aunque contienen las prestaciones básicas para la gestión de tesauros, 
presentan también carencias en cuanto a la identificación correcta de las rela- 


ciones entre los descriptores. 


2) Los más complejos son programas específicos de gestión de tesauros. Incor- 
poran funcionalidades diversas, como la de validar automáticamente los tér- 
minos y las relaciones entre ellos, lo cual ahorra tiempo en la verificación de 


dichas relaciones y evita cometer errores. 


Ejemplos de software de gestión de tesauros 


Recomendamos consultar la bibliografía, pero por poner algún ejemplo podemos señalar 
los siguientes según usemos el idioma inglés o el español: 


+  Multites (en inglés): permite la conversión y generación de ficheros en lenguaje 
HTML y por ende la inclusión del tesauro en la red Internet. 


+  TemalTres (en español): es una aplicación web para la gestión de lenguajes documen- 
tales. Se encuentra orientada especialmente al desarrollo de tesauros jerárquicos, pe- 
ro también puede utilizarse para desarrollar estructuras de navegación web, o como 
complemento de un gestor de contenidos en bibliotecas digitales o en una biblioteca 
tradicional. 


5.2. Los tesauros en el mundo digital. Tesauros en línea 


En los últimos tiempos, el ámbito de la representación y recuperación de in- 
formación ha tenido que asumir el impacto de Internet y sus tecnologías aso- 
ciadas. Las consecuencias de estos cambios tecnológicos están conduciendo a 
una progresiva digitalización del ámbito de la representación y recuperación 
de información que afecta por igual a los recursos de información, las herra- 
mientas de representación y recuperación, y los requerimientos de los usua- 


rios. 


En este sentido se pueden destacar los siguientes hechos: 


1) Incremento del número de recursos de información que requieren descrip- 
ción, identificación y elementos de localización, es decir, un análisis formal 


y de contenido. 


2) Con relación al análisis de contenido, se hace necesario un replanteamiento 
en cuanto a las herramientas de gestión y organización de información entre 


las cuales se encuentran los vocabularios controlados. 


3) Es cada vez más importante proporcionar a los propios usuarios unas es- 
tructuras de conocimiento que les permitan un acceso rápido y amigable a la 
información. En este sentido, el tesauro, como vocabulario controlado, pue- 


de ejercer un papel protagonista: los usuarios requieren herramientas concep- 
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tuales y semánticas destinadas a una efectiva organización de la información 
digital, y los tesauros son una de las estructuras que pueden tener una partici- 


pación activa en este campo. 


Por otra parte, los tesauros se ven significativamente beneficiados por el en- 


torno digital dado que favorece el desarrollo de los siguientes aspectos: 


+ Nuevas posibilidades en cuanto a las pautas de diseño, elaboración, gestión 
y uso de las herramientas utilizadas para la representación y recuperación 


de información. 


e Desarrollo de una estructura hipertextual donde se establezcan hiper- 
vínculos entre todos los elementos estructurales (descriptores, no descrip- 
tores, notas de alcance, etc.), y también entre las distintas partes del te- 


sauro. 


+ Simplificación de la estructura a través de la hipertextualidad, facilitando 


por tanto su manejo a partir de interfaces adecuadas. 
+ Reducción de los costes de actualización. 


+ Potencia el desarrollo de tesauros multilingúes y multidisciplinares fomen- 
tando la cooperación internacional, y, por lo tanto, impulsando la reutili- 


zación e interoperabilidad de recursos. 


+ Acceso universal a herramientas terminológicas que favorecen la recupe- 


ración de información. 


+ Integración del usuario en el proceso de creación, gestión y optimización 
de las herramientas conceptuales documentales. 
Recomendamos visitar la pá- 
gina de Willpower, empresa 
de consultoría independien- 
te especializada en todos los 
temas relacionados con la 
gestión de la información y 
que proporciona exhaustiva 
y abundante información re- 
lativa a la construcción, ges- 
tión, mantenimiento y uti- 
lización de tesauros, así co- 
mo multitud de referencias a 
tesauros de todo el mundo, 
normativa, instituciones y 
gestión de tesauros. 
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6. Tesauros y ontologías 


En relación con el proceso señalado en el apartado anterior, relativo a la cre- 
ciente digitalización del ámbito de la representación y recuperación de infor- 
mación según Arano (2005), son varias las herramientas que han sido objeto 
de estudio, al igual que lo han sido los campos de conocimiento donde estas 
herramientas se han originado: la lingúística, la inteligencia artificial, la do- 


cumentación, la ingeniería lingúística, etc. 


En relación con nuestro objeto de estudio, esto es, la representación y recupe- 


ración de información, estas herramientas son, entre otras, las siguientes: 


e Sistemas de clasificación. 
e Listas de encabezamiento. 
e Bases de datos léxicas. 

e Bases de conocimiento. 

e Taxonomías. 

e  Tesauros. 

+ Mapas conceptuales. 

.  Ontologías. 


e Redes semánticas. 


Dentro de este amplio espectro de herramientas de representación y recupe- 
ración de información, son los tesauros y las ontologías los que con mayor 
frecuencia son objeto de vinculación en la bibliografía aunque provengan de 


ámbitos disciplinarios distintos. 
6.1. Los tesauros 


Como ya hemos visto anteriormente, un tesauro es un tipo de lenguaje docu- 
mental que representa la estructuración conceptual de un determinado campo 
del conocimiento y se convierte en una herramienta de control terminológi- 


co, puesto que la estructuración del tesauro se basa en conceptos. 


Los conceptos son representados por términos seleccionados que evidencian 
ese control terminológico, ya que con dicho control se busca mejorar la preci- 
sión de la indización y recuperación de la información, ambas funciones bá- 


sicas de los tesauros. 


CC-BY-NC-ND e PID_00143963 35 


Los tesauros 





El uso de información conceptual y lingúística almacenada en otros tipos de 
recursos (por ejemplo, en una ontología) permite el enriquecimiento a nivel 
estructural de los tesauros, y posibilita el incremento de la amigabilidad de 
estas herramientas para su utilización por parte de un usuario final no espe- 


cializado. 


6.2. Las ontologías 


Las ontologías han sido un ámbito de interés de la inteligencia artificial. Una 
ontología está englobada dentro de la definición de lo que es un lenguaje 
controlado, ya que proporciona una representación formal del conocimiento 
donde los conceptos, las relaciones y las restricciones conceptuales son expli- 


citadas mediante formalismos en un determinado dominio. 


Son muchas las definiciones existentes en el ámbito de la inteligencia artifi- 
cial. La más conocida es la de Gruber (1993), quien define ontología como una 


descripción formal en el dominio de un discurso. 


Arano (2005), a partir de las definiciones existentes, propone la siguiente. 


“Representación explícita y formal de una conceptualización compartida que implica 
una perspectiva sobre una cierta realidad y que se constituye en la estructura conceptual 
de una base de conocimiento. Su objetivo final es compartir el conocimiento que repre- 
senta.” 


Las ontologías definen conceptos y relaciones de algún dominio, de forma 
compartida y consensuada, y esta conceptualización debe ser representada de 
una manera formal, legible y utilizable por los ordenadores. 


Las ontologías constan de términos, sus definiciones y los axiomas que los 
relacionan con otros términos, que están organizados en una taxonomía. El fin 
último de una taxonomía es presentar un sistema de clasificación que agrupe 


todos los conceptos en diferentes niveles jerárquicos. 


A continuación, vamos a analizar las características principales de las ontolo- 
gías (Lozano, 2000; Gruber, 1993). 


Las ontologías tienen los siguientes componentes: 


a) Conceptos. Son las ideas básicas que se intentan formalizar. Los conceptos 
pueden ser clases de objetos, métodos, planes, estrategias, procesos de razona- 


miento, etc. 


b) Relaciones. Representan la interacción y enlace entre los conceptos del 
dominio. Suelen formar la taxonomía del dominio. Por ejemplo: subclase-de, 


parte-de, etc. 
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c) Funciones. Son un tipo concreto de relación donde se identifica un ele- 
mento mediante el cálculo de una función que considera varios elementos de 
la ontología. Por ejemplo, pueden aparecer funciones como categorizar-clase, 


asignar-fecha, etc. 


d) Instancias. Se utilizan para representar objetos determinados de un con- 
cepto. 


e) Axiomas. Son teoremas que se declaran sobre relaciones que deben cumplir 
los elementos de la ontología. Por ejemplo: “Si A y B son de la clase C, entonces 
A no es subclase de B”. 


Las características más representativas de las ontologías son las siguientes: 


+ Pueden existir ontologías múltiples. El propósito de una ontología es 
hacer explícito algún punto de vista, por lo que a veces será preciso com- 
binar dos o más ontologías. 

+ Podemos identificar niveles de abstracción de las ontologías. Estos ni- 
veles de generalización o abstracción nos dan una tipología de ontologías. 
La idea es caracterizar una red de ontologías usando multiplicidad y abs- 
tracción, y puesto que no podemos aspirar a tener una descripción com- 
pleta del mundo, podemos pensar en una estrategia de construcción gra- 
dual de abajo arriba. 

+  Multiplicidad de la representación. Un concepto puede ser representado 
de muchas formas, por lo que pueden coexistir múltiples representaciones 
de un mismo concepto. 

+ Mapeo de ontologías. Establecer relaciones entre los elementos de una o 
más ontologías, para establecer conexiones, especializaciones, generaliza- 


ciones, etc. 


En términos prácticos, el desarrollo de una ontología incluye: 


e Definir clases en la ontología, esto es, los conceptos y sus relaciones (clases, 
subclases). 

e Colocar las clases en una jerarquía de taxonomías (subclase-superclase). 

e Definir atributos y describir los valores permitidos para esos atributos. 


e Rellenar los valores de los atributos con ejemplos. 
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Algunos ejemplos de desarrollos de ontologías 


Figura 3. Ejemplo de ontología (Mulholland, 1999) 
Clase (concepto) 


Instrumentos musicales 






Subclase de 


Instrumentos de viento 


"Es un tipo de" 






Instrumentos de cuerda 


"es un" 
Subclase de 
Instrumentos Instrumentos Instrumentos Instrumentos 
de metal de viento con traste sin traste 


Cas (exemple 








La guitarra de Paul 





Figura 4. Ejemplo de ontología para laboratorios de investigación y desarrollo 


Posgrado 
Estudiante Pregrado 
Integrante e : 
Docente «——— Invitado 
e] Investigación 
Desarrollo 
Proyecto 
Desarrollo 
y Proyecto 
Investigación 
e. Computador 


Material 
de consulta 





Recurso 











Publicación 


Fuente: Hurtado y Segnera (2006) 


6.3. Similitudes y diferencias entre tesauros y ontologías 


Antonio García Jiménez (2004) menciona algunas de las diferencias y simili- 


tudes entre tesauros y ontologías. Éstas se relatan a continuación: 
a) Similitudes 
e Se engloban dentro de los lenguajes controlados, ya que utilizan el voca- 


bulario de un dominio específico a partir de un número de términos bási- 


cos y de las relaciones que se establecen entre los mencionados términos. 
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e Están relacionados con la terminología empleada para representar los con- 


ceptos de un dominio específico. 


+ Ambos utilizan jerarquías para agrupar términos en categorías y subcate- 
gorías y pueden utilizarse para catalogar y organizar recursos de informa- 


ción. 


b) Diferencias 


e Si bien los tesauros están destinados a ser usados por humanos, las onto- 
logías pueden ser usadas por humanos para compartir conocimiento y por 


agentes de software para procesartlo. 


e  Enlos tesauros, los descriptores se enlazan mediante tres tipos principales 
de relaciones muy simples, relaciones enfocadas principalmente para la 
recuperación pertinente de información. En cambio, las ontologías tienen 
una mayor variedad de relaciones entre conceptos. La descripción de los 
conceptos y sus relaciones pueden ser empleadas de un modo más general 
que en los actuales tesauros de manera que se pueden establecer un mayor 


número de relaciones diferentes, y tener definidas cada una de ellas. 


+  Enlos tesauros, la descripción de los conceptos es limitada y no formali- 


zada, mientras que en las ontologías es explícita y formalizada. 
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